虽然注意力成为深度学习的重要机制,但仍然有限的直觉,为什么它工作得很好。在这里,我们表明,在某些数据条件下,变压器注意力与Kanerva稀疏分布式内存(SDM)的某些数据条件密切相关,一种生物合理的关联内存模型。我们确认在预先培训的GPT2变压器模型中满足这些条件。我们讨论了注意力SDM地图的影响,并提供了对关注的新计算和生物学解释。
translated by 谷歌翻译
随着机器学习(ML)模型在临床应用中获得吸引力,了解临床医生和社会偏见对ML模型的影响越来越重要。尽管用于模型训练的标签可能会出现偏见,但这些偏见的许多来源尚未得到充分研究。在本文中,我们重点介绍了不同的审查制度(即,患者组的测试率差异)是临床ML模型可能会放大的标签偏差来源,可能造成损害。许多患者风险分层模型都使用标签的临床医生诊断和实验室测试的结果进行培训。没有测试结果的患者通常会分配负标签,该标签假设未经测试的患者没有经历结果。由于订单受到临床和资源考虑因素的影响,因此在患者人群中进行测试可能不统一,从而导致不同的审查制度。同等风险患者的不同审查制度会导致某些组的承诺,进而对此类组的有偏见的标签进行审查。在标准ML管道中使用此类偏见的标签可能会导致患者组的模型性能差距。在这里,我们从理论和经验上表征了不同的条件,在这些条件下,不同的审查制度或承诺会影响跨亚组的模型绩效。我们的发现呼吁人们注意不同的审查制度,作为临床ML模型中标签偏差的来源。
translated by 谷歌翻译
我们研究如何通过网络错误引起的网络腐败 - 与视频机器学习(ML)模型有关的数据。我们发现了基于基准视频ML数据集的Kinetics-400中明显的网络损坏。在一项仿真研究中,我们研究了(1)哪些人伪影造成了网络腐败的原因,(2)这种伪像如何影响ML模型,以及(3)标准鲁棒性方法是否可以减轻其负面影响。我们发现网络损坏会导致视觉和时间伪像(即涂抹颜色或框架掉落)。这些网络损坏在各种视频ML任务上降低了性能,但效果因任务和数据集而异,具体取决于任务所需的时间上下文。最后,我们评估数据扩展(用于数据损坏的标准防御) - 但发现它不会恢复性能。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译